PDF是一個不能複製的檔案格式
若我們必須得取得內容該怎辦呢? 可以右轉去Google 這問題 (誤XD
其實也可以在格式不拘的形式取得資料
而在Python中有一種套件 叫做 pyPDF2
這時有看前面的文章,或對PYTHON 有一定了解就知道
我們又要pip install "套件了"
程式
import PyPDF2
PDFObj = open('test.pdf', 'rb')
PDFReader = PyPDF2.PdfFileReader(PDFObj)
print(pdfReader.numPages)
#可以取得內容頁數
==> 19
PageObj = pdfReader.getPage(0)
#可以取得內容文字(第幾頁)
PageObj.extractText()
我們也可以做進階一點 針對取出來的內容包含加密的話
我們做Decrypting動作
#先判斷是否有加密
pdfReader.isEncrypted
==>True
代表訊息有加密我們可以嘗試解密
pdfReader.decrypt('rosebud')
名天分享更多pdf相關的python運用